Removing reverb from reverberant music is a necessary technique to clean up audio for downstream music manipulations. Reverberation of music contains two categories, natural reverb, and artificial reverb. Artificial reverb has a wider diversity than natural reverb due to its various parameter setups and reverberation types. However, recent supervised dereverberation methods may fail because they rely on sufficiently diverse and numerous pairs of reverberant observations and retrieved data for training in order to be generalizable to unseen observations during inference. To resolve these problems, we propose an unsupervised method that can remove a general kind of artificial reverb for music without requiring pairs of data for training. The proposed method is based on diffusion models, where it initializes the unknown reverberation operator with a conventional signal processing technique and simultaneously refines the estimate with the help of diffusion models. We show through objective and perceptual evaluations that our method outperforms the current leading vocal dereverberation benchmarks.
translated by 谷歌翻译
机器人进行深入增强学习(RL)的导航,在复杂的环境下实现了更高的性能,并且表现良好。同时,对深度RL模型的决策的解释成为更多自主机器人安全性和可靠性的关键问题。在本文中,我们提出了一种基于深入RL模型的注意力分支的视觉解释方法。我们将注意力分支与预先训练的深度RL模型联系起来,并通过以监督的学习方式使用受过训练的深度RL模型作为正确标签来训练注意力分支。由于注意力分支经过训练以输出与深RL模型相同的结果,因此获得的注意图与具有更高可解释性的代理作用相对应。机器人导航任务的实验结果表明,所提出的方法可以生成可解释的注意图以进行视觉解释。
translated by 谷歌翻译
本文提出了一种通过视觉解释3D卷积神经网络(CNN)的决策过程的方法,并具有闭塞灵敏度分析的时间扩展。这里的关键思想是在输入3D时间空间数据空间中通过3D掩码遮住特定的数据,然后测量输出评分中的变更程度。产生较大变化程度的遮挡体积数据被认为是分类的更关键元素。但是,虽然通常使用遮挡敏感性分析来分析单个图像分类,但将此想法应用于视频分类并不是那么简单,因为简单的固定核心无法处理动作。为此,我们将3D遮挡掩模的形状调整为目标对象的复杂运动。通过考虑从输入视频数据中提取的光流的时间连续性和空间共存在,我们的灵活面膜适应性进行了。我们进一步建议通过使用分数的一阶部分导数相对于输入图像来降低其计算成本,以近似我们的方法。我们通过与删除/插入度量的常规方法和UCF-101上的指向度量来证明我们方法的有效性。该代码可在以下网址获得:https://github.com/uchiyama33/aosa。
translated by 谷歌翻译
我们提出了一种从普通X射线图像中估算骨矿物质密度(BMD)的方法。双能X射线吸收法(DXA)和定量计算机断层扫描(QCT)在诊断骨质疏松症方面具有很高的精度;但是,这些方式需要特殊的设备和扫描协议。测量X射线图像的BMD提供了机会筛查,这对于早期诊断可能有用。先前直接了解X射线图像和BMD之间关系的方法需要大型训练数据集,以实现高精度,因为X射线图像中的强度很大。因此,我们提出了一种使用QCT训练生成对抗网络(GAN)的方法,并将X射线图像分解为骨分割QCT的投影。提出的分层学习提高了定量分解小区域目标的鲁棒性和准确性。使用拟议的方法对200例骨关节炎评估,我们将其命名为BMD-GAN,在预测和地面真实DXA测量的BMD之间显示出Pearson相关系数为0.888。除了不需要大规模训练数据库外,我们方法的另一个优点是它的扩展性对其他解剖区域,例如椎骨和肋骨。
translated by 谷歌翻译
这项工作与发现物理系统的偏微分方程(PDE)有关。现有方法证明了有限观察结果的PDE识别,但未能保持令人满意的噪声性能,部分原因是由于次优估计衍生物并发现了PDE系数。我们通过引入噪音吸引物理学的机器学习(NPIML)框架来解决问题,以在任意分布后从数据中发现管理PDE。我们的建议是双重的。首先,我们提出了几个神经网络,即求解器和预选者,这些神经网络对隐藏的物理约束产生了可解释的神经表示。在经过联合训练之后,求解器网络将近似潜在的候选物,例如部分衍生物,然后将其馈送到稀疏的回归算法中,该算法最初公布了最有可能的PERSIMISIAL PDE,根据信息标准决定。其次,我们提出了基于离散的傅立叶变换(DFT)的Denoising物理信息信息网络(DPINNS),以提供一组最佳的鉴定PDE系数,以符合降低降噪变量。 Denoising Pinns的结构被划分为前沿投影网络和PINN,以前学到的求解器初始化。我们对五个规范PDE的广泛实验确认,该拟议框架为PDE发现提供了一种可靠,可解释的方法,适用于广泛的系统,可能会因噪声而复杂。
translated by 谷歌翻译
本文解决了对象识别的问题,给出了一组图像作为输入(例如,多个相机源和视频帧)。基于卷积神经网络(CNN)的框架不会有效地利用这些集合,处理如观察到的模式,而不是捕获基础特征分布,因为它不考虑集合中的图像的方差。为了解决这个问题,我们提出了基于基于CNNS的CNNS作为分类器的NN层,作为分类器的NN层,可以更有效地处理图像,并且可以以端到端的方式训练。图像集由低维输入子空间表示;并且此输入子空间与参考子空间匹配,通过其规范角度的相似性,可解释和易于计算度量。 G-LMSM的关键思想是参考子空间被学习为基层歧管的点,用黎曼随机梯度下降而优化。这种学习是稳定,高效,理论上的接地。我们展示了我们提出的方法在手工形状识别,面部识别和面部情感识别方面的有效性。
translated by 谷歌翻译
高斯工艺是能够以代表不确定性的方式学习未知功能的机器学习模型,从而促进了最佳决策系统的构建。由于渴望部署新颖的科学领域的高斯过程,一种迅速增长的研究线路集中于建设性地扩展这些模型来处理非欧几里德域,包括黎曼歧管,例如球形和托尔。我们提出了概括这一类的技术,以模拟黎曼歧管上的矢量字段,这在物理科学中的许多应用领域都很重要。为此,我们介绍了构建规范独立核的一般配方,它诱导高斯矢量字段,即矢量值高斯工艺与几何形状相干,从标量值riemannian内核。我们扩展了标准高斯过程培训方法,例如变分推理,以此设置。这使得旨在使用标准方法培训的Riemannian歧管上的矢量值高斯流程,并使它们可以访问机器学习从业者。
translated by 谷歌翻译